26-04-2025

O mnie

Materiały

Literatura

Praktyczny R z elementami bioinformatyki

W księgarniach pod koniec 2025.

Plan spotkań

  1. Czym są wizualizacje danych?
  2. Gramatyka grafiki.
  3. Błędy w wizualizacjach danych.
  4. Narzędzia do wizualizacji danych.
  5. Efektywne projektowanie dashboardów.
  6. Zaaawansowane wizualizacje danych.

Plan spotkań

  1. Czym są wizualizacje danych?
  2. Gramatyka grafiki.
    • Praca w grupach.
  3. Błędy w wizualizacjach danych.
    • Praca w grupach.
  4. Narzędzia do wizualizacji danych.
    • Praca w grupach.
  5. Efektywne projektowanie dashboardów.
  6. Zaaawansowane wizualizacje danych.

Historia wizualizacji danych

Florence Nightingale

Standardy

Joint Committee on Standards for Graphic Presentation (1915). Standards for Graphic Presentation. Publications of the American Statistical Association 14, 790–797.

Czym są wizualizacje danych?

…(a) is based on qualitative or quantitative data and (b) results in an image that is representative of the raw data, which is (c) readable by viewers and supports exploration, examination, and communication of the data…

\(~\)

Źródło: Tarek Azzam, Stephanie Evergreen, Amy A. Germuth, and Susan J. Kistler. Data visualization and evaluation. New Directions for Evaluation, 2013(139):7 32, 2013.

Czym są wizualizacje danych?

…involves presenting data in graphical or pictorial form which makes the information easy to understand…

\(~\)

Źródło: Matthew Sadiku, Adebowale Shadare, Sarhan Musa, Cajetan Akujuobi, and Roy Perry. Data visualization. International Journal of Engineering Research and Advanced Technology (IJERAT), 12:2454 6135, 12 2016.

Czym są wizualizacje danych?

Wizualizacja danych to forma komunikacji. Tak jak każdy komunikat, wykresy muszą być przede wszystkim zrozumiałe dla odbiorcy.

Rodzaje wizualizacji

Wizualizacja statyczna

3D

Infografiki

Wizualizacje interaktywne

Dashboardy

Gramatyka grafiki

Gramatyka grafiki

Gramatyka grafiki (grammar of graphics): ustrukturyzowany opis wizualizacji danych.

Wilkinson, L. (2005). The Grammar of Graphics (New York: Springer-Verlag).

Gramatyka grafiki

Dane

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa

Atrybuty wizualne

Atrybuty wizualne (aesthetics): mapowanie danych do osi, kolorów, kształtów.

Atrybuty wizualne

Oś X: Sepal.Length. Oś Y: Sepal.Width.

Atrybuty wizualne

Oś X: Sepal.Length. Oś Y: Sepal.Width. Kolor: Species.

Atrybuty wizualne

Oś X: Sepal.Length. Oś Y: Sepal.Width. Kształt: Species.

Atrybuty wizualne

Oś X: Sepal.Length. Oś Y: Sepal.Width. Kształt: Species. Kolor: Species.

Geometrie

Geometrie: obiekty reprezentujące dane.

Geometrie

Fasety

Dzielenie wykresu na podwykresy w zależności od poziomu zmiennej dyskretnej.

Fasety

Fasety

Wykres poprzedni bez fasetowania.

Fasety

Statystyki

Transformacje danych w celu przypisania ich do atrybutów wizualnych.

Statystyki

Statystyki

Statystyki

Statystyki

Statystyki

Statystyki

Koordynaty

Koordynaty

Motyw

Motyw

Motyw

Motyw

Stylizowanie wizualizacji

  1. Czcionki.
  2. Dodatkowe elementy graficzne.

Czcionki

  1. Czcionka do tytułów/nagłówków.
  2. Treść dokumentu.
  3. Wyróżnianie treści.

Czcionki

Czcionki

Czcionki wykorzystywane przez Tableau są tak dobrane, aby zapewnić maksymalną czytelność przy małych rozmiarach.

Grafiki

Elementy graficzne nawiązujące do treści wzmacniają przekaz i pozwalają lepiej zrozumieć dane.

Grafiki

Gramatyka grafiki

Nazwa Przykłady
Dane (data)
Atrybuty wizualne (aesthetics) Osie, kolory, kształty, typy linii
Geometrie (geometries) Linie, słupki, punkty
Fasety (facets) Podrysunki tworzone na podstawie dyskretnych zmiennych
Statystyki (statistics) Średnie, mediany, kwantyle.
Koordynaty (coordinates) Kartezjański, polarny
Motyw (theme) Wygląd rysunku

Przykłady

voivodeship sex age count year month
WOJ. DOLNOŚLĄSKIE K 16 3 2019 8
WOJ. DOLNOŚLĄSKIE K 17 3 2019 8
WOJ. DOLNOŚLĄSKIE K 18 390 2019 8
  • voivodeship: województwo
  • sex: płeć
  • age: wiek
  • count: liczba uzyskanych praw jazdy
  • year: rok
  • month: miesiąc

Zadanie 1

Błędy w wizualizacjach

Rodzaje złych wizualizacji

  1. Fałszywe (przedstawiające fałszywe informacje).
  2. Mylące (przedstawiające fałszywie rzeczywiste informacje).

Złe wizualizacje

Trudne porównania - niewłaściwie wybrana metoda wizualizacja.

Złe wizualizacje

Niewłaściwie wybrana metoda wizualizacji.

Trzeci wymiar

Wykresy kołowe

Wykresy kołowe

Ucięte osie

Ucięte osie

Ucięte osie

Kolory

Kolory

Kolory mogą nawiązywać do treści wizualizacji…

Kolory

… ale schemat kolorystyczny powinien być stosowany konsekwentnie.

Kolory

Kolory

Kolory

Widzenie barwne

Kolory

Tableau domyślnie dobiera palety kolorów (zarówno ilościowe jak i kategoryczne), które są łatwo rozróżnialne również dla osób z zaburzeniami widzenia barwnego.

Kolory

Prostota

Nadmiar stylizacji wykresu może zmniejszać czytelność wykresu.

Prostota

Prostota

Prostota

Układ treści

Wizualizacje i prawda

How to Lie with Statistics, Darrell Huff

Zadanie 2

Narzędzia do wizualizacji

Narzędzia

  1. Programistyczne (R, Python, JavaScript)
  2. Programy graficzne (Inkscape).
  3. Programy przeznaczone do wizualizacji danych i budowy dashboardów (Tableau).

Podział narzędzi do wizualizacji danych

Deklaratywne:

  • zadanie: warunki jakie musi spełniać wizualizacja,
  • jak wizualizacja jest wykonywana jest rozstrzygane wewnętrznie i niezależnie od użytkownika,
  • oddzielenie specyfikacji od wykonania.

Imperatywne:

  • zadanie: krok po kroku jak stworzyć wizualizację,
  • użytkownik w pełni kontroluje każdy detal wizualizacji,
  • jeśli warunki jakie musi spełniać wizualizacja zmienią się nawet odrobinę, instrukcja tworzenia może się zmienić znacząco.

Języki wizualizacji danych

Wywołanie deklaratywne

library(ggplot2)

ggplot(iris, aes(x = Sepal.Length, y = Petal.Length)) +
  geom_point()

Wywołanie deklaratywne

Wywołanie imperatywne

library(grid)

grid.newpage()

pushViewport(plotViewport(margins = c(5, 5, 5, 5)))
pushViewport(dataViewport(xscale = range(iris[["Sepal.Length"]]), 
                          yscale = range(iris[["Petal.Length"]])))

grid.xaxis()
grid.yaxis()

grid.points(x = iris[["Sepal.Length"]], 
            y = iris[["Petal.Length"]],
            default.units = "native", 
            pch = 16)

Wywołanie imperatywne

Języki wizualizacji danych

Lista narzędzi do wizualizacji danych: W1-addendum.html.

Domyślne ustawienia narzędzi

Domyślne ustawienia to wbudowane decyzje o wyglądzie wykresu podjęte przez autorów danego narzędzia. Mają za zadanie przyśpieszyć tworzenie zrozumiałych wykresów, ale czasami mogą prowadzić do błędów.

Domyślne ustawienia narzędzi

Przykład problemu: domyślne ustawienia etykiet na osi X utrudnia ich odczytanie.

Domyślne ustawienia narzędzi

Rozwiązanie problemu: zmiana ustawienia etykiet na osi X.

Domyślne ustawienia narzędzi

Dobrze dobrane domyślne ustawienia znacząco przyśpieszają naszą pracę i pozwalają przenieść część decyzji na autorów narzędzia.

Są one szczególnie istotne przy budowaniu dashboardów lub automatycznych raportów, gdzie wizualizacje są budowane na zmieniających się zbiorach danych.

Koszt wejścia w narzędzie

Koszt wejścia w narzędzie to czas i wysiłek potrzebny do nauczenia się jego używania. Koszt ten jest różny dla różnych narzędzi i zależy od ich złożoności oraz dostępności dokumentacji.

Narzędzia o niskim koszcie wejścia: MS Excel, Datawrapper.

Narzędzia o wysokim koszcie wejścia: ggplot2, Seaborn, matplotlib.

Jak wybrać narzędzie pod względem kosztu?

Aby prawidłowo wybrać narzędzie o jak najmniejszym koszcie wejścia, potrzebne jest doświadczenie, aby oszacować ukryte koszty.

Narzędzia o niskim koszcie wejścia często szybko „blokują” użytkownika, gdy chce on wykroczyć poza podstawowe funkcje. Duża część domyślnych parametrów lub sposobów działania może być głęboko zaszyta w narzędziu co utrudnia ich modyfikację.

Koszt wejścia w narzędzie

Koszt wejścia w narzędzie to inwestycja.

Krótki czas do uzyskania pierwszego wykresu nie zawsze oznacza uzyskanie oczekiwanych efektów (np. skalowalności, automatyzacji).

SI a wizualizacja danych

Wykorzystanie sztucznej inteligencji w wizualizacji danych:

  1. Narzędzia oparte o SI do generowania wykresów.
  2. Generowanie kodu za pomocą SI tworzącego wykresy.

Narzędzia oparte o SI

  • Quadratic AI
  • Julius AI
  • Data Formulator
  • Rose.ai

Problemy: bezpieczeństwo danych, jakość generowanych wykresów, brak kontroli nad wizualizacją.

Generowanie kodu za pomocą SI

Problemy:

  • nieaktualność kodu (frameworki do wizualizacji danych ewoluują bardzo szybko),
  • niska jakość powstałych wizualizacji jeśli są bardziej zaawansowane,
  • arbitralność podjętych decyzji bez zrozumienia celu analizy.

Generowanie kodu za pomocą SI

Problemy:

  • nieaktualność kodu (frameworki do wizualizacji danych ewoluują bardzo szybko),
  • niska jakość powstałych wizualizacji jeśli są bardziej zaawansowane,
  • arbitralność podjętych decyzji bez zrozumienia celu analizy.

Generowanie kodu za pomocą SI

Praca w grupach

  1. Każda osoba w grupie samodzielnie zapisuje 2–3 cechy, które według niej są najważniejsze w narzędziu do wizualizacji.
  2. Dyskusja w grupie:
    1. Które cechy podane przez członków grupy są zbieżne ze sobą, a które są różne od siebie?
    2. Dlaczego te różnice się pojawiły? Czy wynikają z innych doświadczeń lub z innych potrzeb dotyczących wizualizacji danych?
  3. Pisemne podsumowanie:
    1. Jedna cecha, która jest istotna dla wszystkich członków grupy.
    2. Najbardziej zaskakująca różnica oczekiwań i krótko wyjaśnienie, dlaczego ta różnica się pojawiła.

Najlepsze narzędzie do wizualizacji

Wybór narzędzia do wizualizacji to nie kwestia technologii, ale umiejętności twórcy, celu komunikacyjnego i kontekstu.

Kontakt